07 人工智能博弈

01 相关概念

定义

研究范式:建模者对参与者(player)规定可采取的策略集 (strategy sets) 和取得的收益,观察当参与者选择若干策略以最大化其收益时会产生什么结果

囚徒困境(prisoner’s dilemma)

Pasted image 20250520102428.png|475

博弈的分类

博弈的稳定局势 👉 纳什均衡:如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡


02 博弈策略求解

遗憾最小化算法

对于一个有 N 个玩家参加的博弈,玩家 i 在博弈中采取的策略记为 σi

最优反应策略:

在策略组合 σ 中,如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略,那么策略组合 σ 就是一个纳什均衡 (Nash equilibrium) 策略

在有限对手、有限策略情况下,纳什均衡一定存在

此时,策略组 σ={σ1,σ2,...,σN} 对任意玩家 i=1,...,N, 满足如下条件:

ui(σ)maxσiΣiμi(σ1,σ2,...,σi,...,σN)
算法定义

遗憾最小化算法是一种根据以往博弈过程中所得遗憾程度来选择未来行为的方法

玩家 i 在过去 T 轮中采取策略 σi累加遗憾值定义如下:

RegretiT(σi)=t=1T(ui(σi,σit)ui(σt))

其中 σtσit 分别表示第 t 轮中所有玩家的策略组合除了玩家 i 以外的策略组合
简单地说,累加遗憾值代表着在过去 T 轮中,玩家 i 在每一轮中选择策略 σi 所得收益与采取其他策略所得收益之差的累加

遗憾匹配

定义有效遗憾值:遗憾值为负数的策略 👉 不能提升下一时刻收益

RegretiT,+(σi)=max(RegretiT(σi),0)

利用有效遗憾值的遗憾匹配可得到玩家 iT 轮后第 T+1 轮选择策略 σi 的概率 P(σiT+1) 为:

P(σiT+1)={RegretiT,+(σi)σiΣiRegretiT,+(σi)if σiΣiRegretiT,+(σi)>01|Σi|otherwise
为啥不是每次都选择遗憾值最大的策略进行行动?

依照一定的概率选择行动是为了防止对手发现自己所采取的策略(如采取遗憾值最大的策略)

虚拟遗憾最小化算法

很多博弈(围棋、扑克)需要多次决策才能判断胜负,会导致博弈状态空间呈指数增长时,对一个规模巨大的博弈树无法采用最小遗憾算法,因此需要采取虚拟遗憾最小化算法(counterfactual regret minimization)

也就是说,一轮代表着多次决策,多次决策才能达到终局

算法理论

对于任何序贯决策的博弈对抗,可将博弈过程表示成一棵博弈树

具体而言,在信息集 I 下,玩家可以采取的行动集合记作 A(I)

在一次博弈中,所有玩家交替采取的行动序列记为 h(从根节点到当前节点的路径),对于所有玩家的策略组合 σ,行动序列 h 出现的概率记为 πσ(h),不同的行动序列可以从根节点到达当前节点的信息集 I(即不同决策路径可到达博弈树中同一个中间节点)

在策略组合 σ 下,所有能够到达该信息集的行动序列的概率累加就是该信息集 (即中间节点) 的出现概率,即 $$\boldsymbol{\pi}^{\boldsymbol{\sigma}}(\boldsymbol{I})=\sum_{\boldsymbol{h}\in\boldsymbol{I}}\boldsymbol{\pi}^{\boldsymbol{\sigma}}(\boldsymbol{h})$$

博弈的终结局势集合也就是博弈树中叶子节点的集合,记为 Z

在策略组合 σ 下,对玩家 i 而言,如下计算从根节点到当前节点的行动序列路径 h 的虚拟价值:

vi(σ,h)=zZπiσ(h)不考虑玩家i的策略到达当前节点概率×πσ(h,z)从当前节点到叶子结点概率×ui(z)z

行动序列路径 h 的虚拟价值等于如下三项结果的乘积:

在定义了行动序列路径 h 的虚拟价值之后,就可如下计算玩家 i 在基于路径 h 到达当前节点采取行动 a 的遗憾值:(针对节点 I 以及动作 a 的遗憾值)

ri(h,a)=vi(σIa,h)vi(σ,h)

对能够到达同一个信息集 I(即博弈树中同一个中间节点)的所有行动序列的遗憾值进行累加,即可得到信息集 I 的遗憾值:(针对节点 I 的遗憾值)

ri(I,a)=hIri(h,a)

类似于遗憾最小化算法,虚拟遗憾最小化算法的遗憾值T 轮重复博弈后的累加值:

RegretiT(I,a)=t=1Trit(I,a)

进一步可以定义有效虚拟遗憾值:

RegretiT,+(I,a)=max(RiT(I,a),0)

根据有效虚拟遗憾值进行遗憾匹配以计算经过 T 轮博弈后,玩家 i 在信息集 I 情况下于后续 T + 1 轮选择行动 a 的概率:

σiT+1(I,a)={RegretiT,+(I,a)aA(I)RegretiT,+(I,a) if aA(I)RegretiT,+(I,a)>01|A(I)| otherwise 

安全子博弈

考试不作要求

Pasted image 20250520113316.png|425

对于一个非完全信息的博弈,通常可以找到一些从全局出发的近似解法,例如使用上一节中的虚拟遗憾值最小化算法,所谓安全子博弈是指在子博弈的求解过程中,得到的结果一定不差于全局的近似解法

在上面抛硬币的例子当中,在猜硬币的过程中,如果玩家 B 的行动是通过预测玩家 A 卖掉硬币的收益来决定,猜硬币这个子博弈就是安全的。反之如果玩家 B 的行动仅考虑猜硬币的过程(本例中为不考虑 A 买硬币的收益),则猜硬币这个子博弈就是不安全的


03 博弈规则设计

如何设计博弈的规则,使得博弈的最终局势能尽可能达到整体利益的最大化

双边匹配问题: 稳定婚姻问题

在给定成员偏好顺序的情况下,为两组成员寻找稳定的匹配

假设有 n 个单身男性构成的集合 M={m1,m2,...,mn}, 以及 n 个单身女性构成的集合 F={f1,f2,...,fn}

他们有着如下偏好:

不稳定匹配:对于两对潜在的匹配伴侣 (mi,fj)(ml,fk), 如果 smi 中有 fk>fjsfk 中有 mi>ml, 则这样的匹配就是不稳定的匹配,因为 mifk 都会去选择其更希望的匹配 (都喜欢别人的对象)

稳定匹配问题的稳定解:不存在未达成匹配的两个人都更倾向于选择对方而不是自己当前的匹配对象

Gale- Shapely 算法或 G-S 算法

  1. 单身男性向最喜欢的女性表白
  2. 所有收到表白的女性从向其表白男性中选择最喜欢的男性,暂时匹配
  3. 未匹配的男性继续向没有拒绝过他的女性表白。收到表白的女性如果没有完成匹配,则从这一批表白者中选择最喜欢的男性
  4. 即使收到表白的女性已经完成匹配,但是如果她认为有她更喜欢的男性,则可以拒绝之前的匹配者,重新匹配
  5. 如此循环迭代,直到所有人都成功匹配为止

单边匹配问题: 最大交易圈 TTC

单边匹配问题:分配的对象都是不可分的标的物,他们只能属于一个所有者,且可以属于任何一个所有者

最大交易圈算法

  1. 两种图节点:人节点和标的物节点,初始化可以随意分配
  2. 每个交易者连接一条指向他最喜欢的标的物的边,每一个标的物连接到其占有者或是具有高优先权的交易者
  3. 此时形成一张有向图,且必存在环,这种环被称为“交易圈”,
  4. 对于交易圈中的交易者,将每人指向结点所代表的标的物赋予交易者
  5. 交易者和标的物均离开市场
  6. 接着从剩余的交易者和标的物之间重复进行交易圈匹配,直到无法形成交易圈,算法停止


04 非完全信息博弈的实际应用

考试不作要求

Copyright © 2025 Casette.
Made with Obsidian DG.